卡方拟合优度检验 - 简明教程
By Ruben Geert van den Berg under Chi-Square Tests & Statistics A-Z
- 零假设 (Null Hypothesis)
- 假设 (Assumptions)
- 公式 (Formulas)
- 效应量 - Cohen’s W
- 功效和样本量计算 (Power and Sample Size Calculation)
卡方拟合优度检验 (Chi-Square Goodness-of-Fit Test) 检验一个分类变量在一个总体中是否具有某种假设的频率分布。卡方拟合优度检验也被称为:
示例 - 测试汽车广告
一家汽车制造商想为一款新车发起一项营销活动。他们将展示4种不同尺寸的广告(advertisements,简称 ads)。对于每种尺寸的广告,他们都有4个试图传达某种信息的广告,例如“这款车对环境友好”。然后,他们询问了 N = 80 人,他们最喜欢哪个广告。由此获得的数据在这个 Googlesheet 电子表格 中,部分内容如下所示。
那么,哪些广告在我们的样本中表现最好呢? 我们可以简单地查找哪个广告最受访客欢迎:频率最高的广告就是每个广告尺寸的 众数 (mode)。
所以,让我们看一下第一个广告尺寸 - ad1 - 的频率分布,如下图所示。
观察频率和条形图
此图表中显示的观察频率 (observed frequencies) 为:
- 安全和家庭友好型:6
- 奢华和男性化:29
- 环境友好型:16
- 宽敞和便利:29
请注意,ad1 具有双峰分布:广告 2 和 4 都是赢家,各有 29 票。 但是,我们的数据仅包含 N = 80 的样本。那么我们是否可以得出结论,广告 2 和 4 在整个总体中也表现最佳? 卡方拟合优度检验回答了这个问题。 对于这个例子,它试图拒绝所有广告在人群中表现一样好的零假设。
零假设 (Null Hypothesis)
通常,卡方拟合优度检验的零假设很简单:
\[H_0: P_{01}, P_{02},...,P_{0m},\; \sum_{i=0}^m\biggl(P_{0i}\biggr) = 1\]
其中 \(P_{0i}\) 表示某个分类变量中 \(m\) 个类别的总体比例。您可以选择任何比例集,只要它们加起来为 1 即可。 在许多情况下,所有比例相等是最可能的零假设。 对于只有 2 个类别的 二分变量 ,最好使用
- 二项检验 ,因为它给出了精确的而不是近似的显著性水平或
- 1 个比例的 z 检验 ,因为它给出了总体比例的 置信区间 。
无论如何,对于我们的示例,我们想表明某些广告比其他广告表现更好。 因此,我们将尝试反驳我们的 4 个总体比例都相等且 - 因此 - 为 0.25 的假设。
预期频率 (Expected Frequencies)
现在,如果这 4 个总体比例确实是 0.25,并且我们抽取了 N = 80 个受访者,那么我们预计每个广告将受到 0.25 · 80 = 20 个受访者的青睐。 也就是说,所有 4 个预期频率均为 20。我们需要知道这些预期频率有两个原因:
- 计算我们的检验统计量需要预期频率,并且
- 卡方拟合优度检验的假设也涉及预期频率。
假设 (Assumptions)
卡方拟合优度检验需要 2 个假设 2, 3:
- 独立的观察值 (independent observations);
- 对于 2 个类别,每个预期频率 \(Ei\) 必须至少为 5。 对于 3 个以上类别,每个 \(Ei\) 必须至少为 1,并且所有 \(Ei\) 中不超过 20% 可能小于 5。
我们数据中的观察值是独立的,因为它们是不同的人,他们在完成我们的调查时没有互动。 我们还看到,对于我们的示例,所有 \(Ei\) 都是 (0.25 · 80 =) 20。 因此,第二个假设也满足了。
公式 (Formulas)
我们将首先计算 \(^2\) 检验统计量,如下所示:
\[\chi^2 = \sum\frac{(O_i - E_i)^2}{E_i}\]
其中
- \(O_i\) 表示 观察频率 (observed frequencies),并且
- \(E_i\) 表示 预期频率 (expected frequencies) - 通常都相等。
对于 ad1,这将导致:
\[\chi^2 = \frac{(16 - 20)^2}{20} + \frac{(29 - 20)^2}{20} + \frac{(9 - 20)^2}{20} + \frac{(29 - 20)^2}{20} = 18.7 \]
如果满足所有 假设,则 \(^2\) 近似服从具有 \(df\) 个自由度的卡方分布,其中
\[df = m - 1\]
对于 \(m\) 个频率。 由于我们有 4 个不同广告的 4 个频率,
\[df = 4 - 1 = 3\]
对于我们的示例数据。 最后,我们可以简单地查找 显著性水平 :
\[P(\chi^2(3) > 18.7) \approx 0.00032\]
我们在 此 Googlesheet 电子表格 中运行了这些计算,如下所示。
那么这意味着什么? 好吧,如果所有 4 个广告在人群中都同样受欢迎,那么找到我们观察到的频率的可能性为 0.00032。 由于 p < 0.05,我们拒绝零假设。 结论:在整个读者群体中,某些广告比其他广告更受欢迎。
好的,因此可以安全地假设总体比例并不都相等。 但它们到底有多不同? 我们可以用一个数字来表达: 效应量 (effect size)。
效应量 - Cohen’s W
卡方拟合优度检验(以及 卡方独立性检验 )的效应量是 Cohen’s W。 一些经验法则 1 是
- Cohen’s W = 0.10 表示 小 效应量;
- Cohen’s W = 0.30 表示 中等 效应量;
- Cohen’s W = 0.50 表示 大 效应量。
Cohen’s W 计算如下:
\[W = \sqrt{\sum_{i = 1}^m\frac{(P_{oi} - P_{ei})^2}{P_{ei}}}\]
其中
- \(P_{oi}\) 表示观察到的比例 (observed proportions),并且
- \(P_{ei}\) 表示零假设下预期的比例 (expected proportions),适用于
- \(m\) 个单元格。
对于 ad1,零假设表明所有预期比例均为 0.25。 观察到的比例是从观察到的频率计算出来的(参见下面的屏幕截图),结果为
\[W = \sqrt{\frac{(0.2 - 0.25)^2}{0.25} +\frac{(0.3625 - 0.25)^2}{0.25} +\frac{(0.075 - 0.25)^2}{0.25} +\frac{(0.3625 - 0.25)^2}{0.25} } = \]
\[W = \sqrt{0.234} = 0.483\]
我们在 此 Googlesheet 电子表格 中运行了这些计算,如下所示。
对于 ad1,效应量 \(W\) = 0.483。 这表明观察到的频率和预期的频率之间存在很大的总体差异。
功效和样本量计算 (Power and Sample Size Calculation)
现在我们计算了效应量,我们就可以进行最后 2 个步骤了。 首先, 功效 怎么样? 如果出现以下情况,证明效应的概率是多少?
- 我们在 α = 0.05 处进行检验;
- 我们的样本为 N = 80;
- df = 3(我们的结果变量有 4 个类别);
- 我们不知道总体效应量 \(W\)?
下图(在 G*Power 中创建)回答了这个问题。
一些基本结论是
- 对于 大 效应量,功效 = 0.98;
- 对于 中等 效应量,功效 = 0.60;
- 对于 小 效应量,功效 = 0.10。
这些结果不是太好:如果总体效应量为中等且 N = 80,我们只有 0.60 的概率拒绝零假设。 但是,我们可以通过增加样本量来增加功效。 那么,如果出现以下情况,我们需要哪些样本量?
- 我们在 α = 0.05 处进行检验;
- 我们希望功效 = 0.80;
- df = 3(我们的结果变量有 4 个类别);
- 我们不知道总体效应量 \(W\)?
下图显示了所需样本量如何随着效应量的增加而减少。
在上述条件下,我们有功效 ≥ 0.80
- 对于 大 效应量,如果 N = 44;
- 对于 中等 效应量,如果 N = 122;
- 对于 小 效应量,如果 N = 1091。
参考文献
- Cohen, J (1988). Statistical Power Analysis for the Social Sciences (2nd. Edition) . Hillsdale, New Jersey, Lawrence Erlbaum Associates.
- Siegel, S. & Castellan, N.J. (1989). Nonparametric Statistics for the Behavioral Sciences (2nd ed.). Singapore: McGraw-Hill.
- Warner, R.M. (2013). Applied Statistics (2nd. Edition) . Thousand Oaks, CA: SAGE.